KODY ASCII, ANSI i UniCodeSystem. |
|
|
||||||||||||||
| | ||||||||||||||
|
|
|
|
Liczby - podstawowe pojêcie matematyki; powsta³o w ¶wiadomo¶ci cz³owieka na wiele tysiêcy lat p.n.e a nastêpnie rozwija³o i kszta³towa³o siê wraz z rozwojem cywilizacji. Liczby s³u¿± do oznaczania liczno¶ci zbiorów (np. przedmiotów).
|
|||||||||||
|
1. SYSTEMY LICZBOWE. BIT. BAJTDawno temu staro¿ytni rzymianie pos³ugiwali siê podczas zapisu liczb systemem, w którym wa¿na by³a kolejno¶æ wystêpowanie liter s³u¿±cych za cyfry lub miejsce umieszczenia.
Rok 1999 zapisany w systemie dziesiêtnym:
Komputer - w ogromnym uproszczeniu - rozpoznaje dwa stany: "jest" ("1") lub "nie ma" ("0").
Zapis liczby 42 w systemie dwójkowym - zwanym "binarnym" to 101010:
Zapis roku 2000 w postaci dwójkowej to 111 11010000. W komunikacji z komputerem u¿ywany jest czêsto wygodniejszy system "szesnastkowy", w którym cyfry odpowiadaj±ce liczbom od 10 do 15 zast±piono literami od A do F.
1 kB (kilobajt) = 1 024 bajty, 1 MB (megabajt) = 1 048 576 bajtów, 1 GB (gigabajt) = ..... Najwiêksza liczba mo¿liwa do zapisania w postaci o¶miu zer lub jedynek - w jednym bajcie - to 1111 1111 co odpowiada w zapisie dziesiêtnym liczbie 255 (najmniejsza to 0000 0000 czyli dziesiêtne "zero"). Zapisanie wiêkszych liczb wymaga u¿ycia dwu bajtów (do 65 535). Zapis roku 2000 w postaci dwójkowej to w³a¶nie dwa bajty: 00000111 11010000. Pierwsze 5 zer nie jest znacz±ce. Warto zwróciæ uwagê na pewne porównanie. Gdy do przekazu informacji u¿yjemy jednej litery lub g³oski (np. "o") - nie przeka¿emy praktycznie nic. Gdy u¿yjemy s³owa (z³o¿onego z kilku liter, np. "okno") nast±pi ogromny przyrost w przekazywanej informacji. U¿ycie dwu s³ów ("otwarte okno") daje kolejny ogromny skok - mo¿na nawet uznaæ j± ju¿ za "pe³n±". 2. KODY ASCII.Jak spowodowaæ aby komputer potrafi±cy jedynie wykonywaæ operacje obliczeniowe na liczbach "zobaczy³" znak (cyfrê, literê i inne) wprowadzony z klawiatury?Trzeba ka¿demu znakowi przyporz±dkowaæ liczbê. Komputer na zapamiêtanie jednego znaku w pamiêci potrzebuje 1 bajtu. Oznacza to, ¿e mo¿e standardowo "zapisaæ" 255 znaków + 0.
ASCII - (American Standard Code for Information Interchange) to standardowy sposób przypisania liczb do znaków pisarskich.
W komputerach stosowany jest te¿ tzw. "rozszerzony kod ASCII" obejmuj±cy znaki o kodach od 128 do 255. Zawarto¶æ tej czê¶ci mo¿e byæ ró¿na w ró¿nych komputerach, a nawet w tym samym komputerze w ró¿nych konfiguracjach (ustawieniach do pracy). W "czystej formie" znaki zawarte w tej czê¶ci wystêpuj± tylko w tzw. stronie kodowej CP 437 (amerykañskiej). Do zapisywania tej czê¶ci kodu ASCII u¿ywane jest osiem bitów, czyli pe³ny bajt. Znaki kodu ASCII (ca³ego, tylko w oknie DOS) mo¿na uzyskaæ przez:
Prawie wszystkie ksi±¿ki dotycz±ce DOS podaj± tablice przyporz±dkowañ liczb do znaków, czyli kody ASCII. W ksi±¿kach o Windows - takich tabel ju¿ nie ma. Przeciêtnemu windziarzowi nie s± one ju¿ potrzebne. 2.1 KODY ASCII OD 0 DO 31 - STERUJ¡ KOMPUTEREM.Np. wprowadzenie kodu "13" daje to samo, co naci¶niêcie klawisza [Enter]; odpowiednio - "27" to kod klawisza [Esc]. Niektóre z tych kodów steruj± te¿ drukark± (wys³anie znaku "12" jako tekstu powoduje wysuw papieru do koñca strony). Kody te maj± znaczenie dla komputera i reprezentacjê graficzn± (to co widaæ na ekranie).2.2 KODY ASCII OD 32 DO 127 - TO ZNAKI UZYSKIWANE Z KLAWIATURY.Maj± reprezentacjê graficzn± i znaczenie dla komputera - takie jak znaki wprowadzone przez naci¶niêcie klawiszy.2.3 KODY ASCII OD 128 DO 255 - ZNAKI NARODOWE, SEMIGRAFICZNE I INNE.Maj± tylko reprezentacjê graficzn± - i s± bez znaczenie dla komputera. Ta czê¶æ kodów nosi nazwê "rozszerzonych".
Rozszerzony kod ASCII jest wykorzystywany:
Fakt rozmieszczenia w jednym przedziale kodów do trzech ró¿nych zastosowañ owocowa³ kolizjami. Stare drukarki traktowa³y niektóre z kodów tego zakresu jako znaki steruj±ce krojem czcionki, przesuwem papieru. Podobnie - komenda DOS-u (do wersji 6.2x) tree mia³a opcjê /a aby unikn±æ wydruku niepe³nego tzn. potraktowania przez drukarkê semigrafiki ASCII jako kodów steruj±cych i zniekszta³cenia rysunku drzewa katalogów. Ponad to w programie zawieraj±cym "semigrafikê" z kodów ASCII (a by³ to np. ogromnie popularny Norton Commander) zamiast elementów tabelek mog± pojawiaæ siê "dziwne" znaki. 3. STRONA KODOWA - (CODE PAGE).Po jakim¶ czasie od powstania ASCII powsta³ pierwszy zestaw znaków narodowych, bowiem ludzie w innych pañstwach te¿ chcieli mieæ w komputerach swój ca³y alfabet. Strona kodowa (oznaczana CP) to: Istniej± ró¿ne strony kodowe umo¿liwiaj±ce uzyskanie w komputerze ró¿nych znaków narodowych.
W miêdzyczasie powsta³ Microsoft.
W Polsce "wspó³¿yj±" wiêc nastêpuj±ce strony kodowe i standardy polskich liter: Inne standardy polskich liter to wci±¿ istniej±ca w DOS Mazovia i zapominane DHN, CSK, Microvex, Cyfromat.
Wspó³czesne komputery pozwalaj± na instalacjê dowolnej strony kodowej przez uruchomienie programu - zainstalowanie strony kodowej.
Instalacja polskiej strony kodowej w komputerze VGA oraz klawiatury narodowej lub amerykañskiej wymaga ustawienia w plikach konfiguracyjnych komputera. config.sys: COUNTRY=48,852,C:\DOS\COUNTRY.SYS Kody polskich liter maj± jeszcze jedno znaczenie: je¿eli dysponujemy edytorem formatuj±cym tekst (tj. Word-em, bo inne ju¿ zniknê³y z ekranów), to, aby przekazaæ nasz dokument do drukarni lub koledze maj±cemu inny porz±dny edytor, ale bez mo¿liwo¶ci konwersji naszego pliku - nakazujemy naszemu edytorowi zapisaæ dokument jako kody ASCII lub ANSI (w razie potrzeby umieszczamy informacjê o czcionce i grafice dla operatora drukarni). W ten sposób przenosi siê dokumenty miêdzy edytorami. Pliki w kodach ASCII lub ANSI s± tworzone i/lub odczytywane przez edytory nieformatuj±ce. Pliki te, to czyste kody ASCII "zak³ócone" jedynie polskimi literami. 4. Kody ANSI.W Windows wystêpuje odmiana kodów ASCII zwana ANSI (Amerykañski Narodowy Instytut Standardów). Ró¿nice nie s± du¿e. Polegaj± na braku w zakresie rozszerzonym ANSI znaków semigraficznych i steruj±cych drukark± (w Windows zbêdne), oraz innym umieszczeniu znaków narodowych (obejrzenie w Notatniku z Windows tekstu w ASCII wyra¼nie to ukazuje). 5. UNICODE (UCS-4).ASCII i ANSI nie wystarczaj±, gdy trzeba zapisaæ w rozszerzonym zakresie np. ponad 3000 chiñskich idiomów lub np. stworzyæ jedn± stronê kodow± dla ca³ej Europy. Unikod (ang. Unicode) jest nowoczesnym sposobem kodowania obejmuj±cym znaki u¿ywane na ca³ym ¶wiecie w tym wielu, je¿eli wrêcz nie wszystkich, krajów (np. polskie, hieroglify czy cyrylicê), symbole muzyczne, techniczne, wymowy i inne czêsto spotykane. W odró¿nieniu od dotychczas u¿ywanych sposobów, kod numeryczny jednoznacznie identyfikuje symbol. Nie ma sytuacji, ¿e dany kod mo¿e oznaczaæ ró¿ne symbole w zale¿no¶ci od numeru strony czy innego znacznika. Wynika z tego mo¿liwo¶æ swobodnego mieszania znaków ró¿nych krajów bez obawy o niejednoznaczno¶æ. Istotê Unikodu zgrabnie odzwierciedla okre¶lenie alfabet uniwersalny. Pe³ny Unikod jest standardem 32-bitowym (UCS-4). Bagatela: 4 294 967 295 znaków.
Ze wzglêdu na to, i¿ nie wszystkie systemy komputerowe i programy zdolne s± do u¿ywania Unikodu w pe³nym zakresie oraz dla zapewnienia bezproblemowego transferu przesy³ania danych przy u¿yciu takich systemów komputerowych okre¶lono kilka sposobów kodowania: Specyfik± kodowañ UTF-7 i UTF-8 jest przesy³anie kodów ASCII praktycznie bez zmian. Tylko kody wiêksze ni¿ 127 podlegaj± modyfikacji. Dziêki temu polskie teksty powiêkszaj± swoj± objêto¶æ tylko o niewielki procent (kilka..kilkana¶cie) zamiast dwukrotnie lub czterokrotnie. Unikod jest obs³ugiwany przez dwa najczê¶ciej stosowane pakiety oprogramowania firm Netscape Communications oraz Microsoft. Konkretnie Internet Explorer (MS) oraz Netscape Communicator oba w wersjach 4.0 i wy¿szych. Obejmuje to obs³ugê poczty, grup dyskusyjnych, WWW (czytanie i edycja). Bo te¿ o Internet tu chodzi. 6. INTERNET ORAZ E-MAIL A POLSKIE OGONKI.Kiedy Windows rozpowszechni³y siê w 90% komputerów na ¶wiecie, wtedy w Polsce - rozpowszechni³a siê CP 1250 i powoli zaczê³y znikaæ teksty pisane w ASCII. Wprawdzie Windows instaluje CP 852 w DOSie i, w oknie Trybu MS DOS-u oraz wierszu poleceñ, mamy na ekranie polskie znaki diakrytyczne oraz polsk± klawiaturê programisty, ale wiêkszo¶æ komputerowców ju¿ tego nie potrzebowa³a. Wydawa³o siê, ¿e narzucona przez B. Gatesa strona kodowa stanie siê (nieformalnym - przypominam) standardem. Jednak pojawi³ siê Internet. W nim za¶ stosuje siê ogonki wg ISO. A ¿e programy do tworzenia stron WWW s± z windy, mamy de facto dwa standardy ogonków na stronach. Stosowane s± wiêc programy konwertuj±ce tekst w jednym standardzie na drugi. Przegl±darki internetowe, takie jak Netscape i Internet Explorator, po znaczniku zawartym w kodzie strony, orientuj± siê jaki standard zastosowa³ autor i automatycznie pokazuj± ogonki prawid³owo. Z tym, ¿e Bill G. dalej bru¼dzi - MsIE konwertuje (podczas zapisu na dysk) strony w ISO do CP 1250.
|
||||||||||||||
|
|
||||||||||||||
![]() |
|
| Strona g³ówna | Historia PC | ENIAC - pierszy komputer | Szachy z komputerem |
| General Motors o komputerach | Emotikony | Edytory | Horoskop druidów |